AddN
=================


对多个输入张量进行 **逐元素相加**，并将结果输出。
当前实现为二输入版本，可扩展用于多输入逐元素求和的场景。

数学表达式为：

.. math::

    dst_i = src0_i + src1_i

输入：
    - **input0** - 第一个输入数据地址。
    - **input1** - 第二个输入数据地址。
    - **length** - 计算长度（元素个数）。
    - **core_mask** - 核掩码（仅适用于共享存储版本）。

输出：
    - **output** - 计算结果地址。

支持平台：
    ``FT78NE``
    ``MT7004``

.. note::
    - FT78NE 支持 ``fp32``、``fp64``、``int8``、``int16``、``int32``、``cplx64``、``cplx128`` 类型
    - MT7004 支持 ``fp16``、``fp32``、``int16``、``int32``、``cplx64`` 类型
    - 所有输入与输出张量需具有相同的长度与数据布局

**共享存储版本:**

.. c:function:: void fp_addn_s(float* input0, float* input1, float* output, int length, int core_mask)
.. c:function:: void dp_addn_s(double* input0, double* input1, double* output, int length, int core_mask)
.. c:function:: void i8_addn_s(int8_t* input0, int8_t* input1, int8_t* output, int length, int core_mask)
.. c:function:: void i16_addn_s(int16_t* input0, int16_t* input1, int16_t* output, int length, int core_mask)
.. c:function:: void i32_addn_s(int32_t* input0, int32_t* input1, int32_t* output, int length, int core_mask)
.. c:function:: void c64_addn_s(cplx64* input0, cplx64* input1, cplx64* output, int length, int core_mask)
.. c:function:: void c128_addn_s(cplx128* input0, cplx128* input1, cplx128* output, int length, int core_mask)

**C调用示例：**

.. code-block:: c
    :linenos:
    :emphasize-lines: 13

    // FT78NE 示例
    #include <stdio.h>
    #include <addn.h>

    int main(int argc, char* argv[]) {
        float *input0 = (float *)0xA0000000;
        float *input1 = (float *)0xA0010000;
        float *output = (float *)0xC0000000;

        int length = 1024;
        int core_mask = 0xff;

        fp_addn_s(input0, input1, output, length, core_mask);
        return 0;
    }


**私有存储版本:**

.. c:function:: void fp_addn_p(float* input0, float* input1, float* output, int length)
.. c:function:: void dp_addn_p(double* input0, double* input1, double* output, int length)
.. c:function:: void i8_addn_p(int8_t* input0, int8_t* input1, int8_t* output, int length)
.. c:function:: void i16_addn_p(int16_t* input0, int16_t* input1, int16_t* output, int length)
.. c:function:: void i32_addn_p(int32_t* input0, int32_t* input1, int32_t* output, int length)
.. c:function:: void c64_addn_p(cplx64* input0, cplx64* input1, cplx64* output, int length)
.. c:function:: void c128_addn_p(cplx128* input0, cplx128* input1, cplx128* output, int length)


**C调用示例：**

.. code-block:: c
    :linenos:
    :emphasize-lines: 12

    // FT78NE 示例
    #include <stdio.h>
    #include <addn.h>

    int main(int argc, char* argv[]) {
        float *input0 = (float *)0x10810000;   // L2 空间
        float *input1 = (float *)0x10814000;
        float *output = (float *)0x10820000;

        int length = 1024;

        fp_addn_p(input0, input1, output, length);
        return 0;
    }